高等数学

Wang Haihua

🍈 🍉🍊 🍋 🍌


数理统计研究的对象是受随机因素影响的数据,简称统计。统计是以概率论为基础的一门应用科学。数据样本少则几个,多则成千上万,人们希望能用少数几个包含最多相关信息的数据来体现所研究对象的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。下面介绍统计的基本概念。

样本和总体

在数理统计中, 把所研究的对象的全体称为总体。通常指研究对象的某项数 量指标, 一般记为 $X$ 。如全体在校生的身高 $X$, 某批灯泡的寿命 $Y$ 。把总体 的每一个基本单位称为个体。从总体 $X$ 中抽出若干个个体称为样本, 一般记 为 $X_{1}, X_{2}, \cdots, X_{n}, n$ 称为样本容量。而对这 $n$ 个个体的一次具体的观察结果记 为 $x_{1}, x_{2}, \cdots, x_{n}$, 它是完全确定的一组数值, 但又随着每次抽样观察而改变, 称 $x_{1}, x_{2}, \cdots, x_{n}$ 为样本观察值。统计的任务是从样本观察值出发, 去推断总体 的情况一总体分布。

频数表和直方图

一组样本观察值虽然包含了总体的信息, 但往往是杂乱无章的, 作出它 的频数表和直方图, 可以看作是对这组样本值的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间, 然后统计这组样本值在每个区间中 出现的次数, 称为频数, 由此得到一个频数表。以数据的取值为横坐标, 频 数或频率 (频率=频数/样本容量) 为纵坐标, 画出一个阶梯形的图, 称为直方图。

统计量

样本是进行分析和推断的起点, 但实际上我们并不直接用样本进行推 断, 而需对样本进行加工和提炼, 将分散于样本中的信息集中起来, 为此引 入统计量的概念。统计量是不含末知参数的样本的函数。 下面我们介绍儿种常用的统计量, 以后不区分统计量和统计量的观察 值, 统称统计量。设有一个容量为 $n$ 的样本(也不区分样本和样本观察值, 统称样本), 记为 $x_{1}, x_{2}, \cdots, x_{n}$ 。

表示位置的统计量一算术平均值和中位数

算术平均值(简称均值)描述数据取值的平均位置, 记作 $\bar{x}$, $$ \bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}, $$ 中位数是将数据由小到大排序后位于中间位置的那个数值, 当 $n$ 为偶数时, 取值为中间两数的算术平均值。

表示变异程度的统计量一标准差、方差和极差 标准差 $s$ 定义为

$$ s=\left[\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right]^{\frac{1}{2}} . $$

它是各个数据与均值偏离程度的度量, 这种偏离不妨称为变异。方差是 标准差的平方 $s^{2}$ 。极差是 $x_{1}, x_{2}, \cdots, x_{n}$ 的最大值与最小值之差。

表示分布形状的统计量一偏度和峰度 偏度

$$ v_{1}=\frac{1}{s^{3}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3} . $$

峰度 $$ v_{2}=\frac{1}{s^{4}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4} $$

偏度反映分布的对称性, $v_{1}>0$ 称为右偏态, 此时数据位于均值右边的 比位于左边的多; $v_{1}<0$ 称为左偏态,情况相反;而 $v_{1}$ 接近 0 则可认为分布 是对称的。 峰度 $v_{2}$ 是分布形状的另一种度量, 正态分布的峰度为 3 , 若 $v_{2}$ 比 3 大得 多, 表示分布有沉重的尾巴, 说明样本中含有较多远离均值的数据, 因而峰 度可以用作衡量偏离正态分布的尺度之一。

协方差和相关系数

$$ \begin{aligned} x=\left[x_{1}, x_{2}, \cdots, x_{n}\right] \text { 和 } y=\left[y_{1}, y_{2}, \cdots, y_{n}\right] \text { 的协方差 } \\ \operatorname{cov}(x, y)=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{n-1}, \end{aligned} $$

其中 $\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}, \bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i}$ 。

$x$ 和 $y$ 的相关系数 $$ \rho_{x y}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} $$